[DAY 3] YOLOv2

2023 iThome 鐵人賽

DAY 3

AI & Data

15th鐵人賽

488 瀏覽

YOLO9000: Better, Faster, Stronger

Joseph Redmon, Ali Farhadi

可偵測超過9000種類別

Batch Normalization: 取代Dropout，加快收斂且提升2% mAP。
High Resolution Classifier: 先用448×448像素值的影像預先進行訓練10個epochs，先提升4% mAP。
Anchor Boxes:
- 移除全連結層，並用Anchor Boxes預測Bounding Boxes。
- 輸入為416×416為了讓特徵圖中的座標為奇數個，這樣中心點座標就會唯一。mAP會下降，但是提升了Recall。
Dimension Clusters:過去需手動設定Anchor Box數量以及尺寸，但本文利用K-means去生成Bounding Box，可以使得模型學得更好。
K-mean用:
最終求得: K=5，Recall跟模型複雜度較為適合。
Direct location prediction: 每個Grid Cell預測五個Bounding Box，
並且有五個值
- bx,by:預測的Bounding Box中心點位置+距離最左邊跟最上面Grid Cell的格數。
- bw,bh:預測的Bounding Box寬跟高乘上寬跟高篇移量的exponential結果。
- 信心度值會再經過sigmoid後輸出
Fine-Grained Features:串接較為淺層的特徵到深層網路當中，提升1%。
Multi-Scale Training:為了讓模型可以處理不同大小的影像，每10個batch會重新選擇一個新的影像大小{320,352, ...,608}

Classification:會先用分類網路預訓練10個epochs訓練448×448的影像，並接續訓練160個epochs。
Detection: 移除上面預訓練好的classification模型最後一層convolution層，並添加三層3×3×1024的卷積層，以及最後加入一層輸出層(1×1×(5 boxes × (5 coordinates +類別數)))，中間有加入passthorough層。